智能论文笔记

AtteSTNet -- An attention and subword tokenization based approach for code-switched text hate speech detection

Geet Shingi , Vedangi Wagh

分类：自然语言处理 | 机器学习

2021-12-10

技术的最新进步导致了社交媒体使用的提高，这最终导致了大量的用户生成的数据，这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度，印地语主要用于使用英语，并经常用英语进行代码开关，从而产生了hinglish（印地语+英语）语言。过去，已经采用了各种方法，以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是，这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理，使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法，不仅与这些复杂的网络相当，而且还超出了子词令牌化算法（如BPE和Umigram）以及基于多头的注意技术的性能，准确性为87.41％，而F1得分为87.41％和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇，从而使我们的技术简单，高效且可持续，可在现实世界中使用。

translated by 谷歌翻译